n 生物信息平台整体解决方案
生物为生命科学相关科研机构、基因测序公司等用户提供专业的生物信息平台的软硬件一体化解决方案,目的是为客户提供无忧后台支撑,使科研工作者和相关公司聚焦其核心业务。
该整体解决方案,是为客户提供定制化的软硬件系统集成服务,既包括了服务器、存储、网络、文件系统、操作系统、集群管理软件等IT基础设施;也包括了全基因组、全外显子、转录组等各种多样化的生物信息数据分析流程的搭建;提供从软件到硬件的全系统维护;提供在云端的“生物信息云”服务;为复杂的高级定制数据分析提供外包服务;并依托“生物信息学院”提供集中式或定制化培训服务以及考试认证;另外,还提供相关的知识库、数据库等。
n 高性能计算与海量存储系统
应用场景一:测序仪配套高性能计算和存储系统
针对Illumina 大型测序仪提供海量的并行文件存储系统和适当规模的高性能计算系统。目前通量最高(双流动槽)的一套测序系统三天一轮能产生约18T的碱基数据。
基因测序与分析一般包含三大阶段:
阶段一:Illumina 测序仪采集数据并经过处理后产生fastq格式原始文件;
阶段二:Tophat/BWA/Bowtie等软件读取fastq格式文件及人类参考基因组索引,经过序列比对生成BAM格式文件;
阶段三:GATK/samtools等软件或其他基因分析类软件如Manta/Varsand等基因结构变异检测软件、CNVnator基因拷贝数变异检测软件等读取序列比对后的BAM文件,最终进过分析处理生成VCF格式文件。
需要PB级的大规模横向扩展能力和并行文件系统存储设备,以及数十个高性能计算的节点。一方面满足测序仪大量fastq文件存储需求,另一方面满足生物信息数据分析的计算资源和存储资源需求。
应用场景二:De novo组装分析
De novo组装分析包括三个阶段:
阶段一:测序仪采集数据并经过处理后产生fastq格式原始文件;
阶段二:对 fastq格式文件进行质量控制,并经过序列拼接生成contig/ scaffold拼接结果文件;
阶段三:Glimmer等预测软件对contig进行基因预测并对预测的基因进行功能注释。
n 搭建生物信息分析流程
高通量测序数据金标准分析流程 + 定制化分析流程
l 预置三大类共九套高通量测序数据金标准分析流程,满足绝大多数测序项目的分析需求
l 提供数据分析软件及数据库的定期维护和升级
l 提供生物信息人员远程指导及到场培训
l 提供特殊分析流程定制和布置服务
基因组工作流整合了一些分析软件和相关生物信息学数据库,把原始序列数据(fastq)处理为变型(VCF)数据。每个框表示一个分析模块,由集成的基因组分析软件组成,如数据质量控制、序列比对、变异提取和变异注释分析等模块。这些模块自身可作为独立工作流被使用,也可以按照逻辑关系被连接到一个更大的工作流中。
基因组工作流展示
高度集成各类生物学软件及数据库